Поиск по архивам «Вечерней Москвы»: проект НЭБ и сервиса Яндекса «Поиск по архивам»
В честь столетнего юбилея газеты «Вечерняя Москва» нейросети Яндекса распознали весь архив издания c 1923 по 2023 год. Теперь он доступен онлайн для всех желающих в сервисе Яндекса «Поиск по архивам».
Журналисты, историки и все заинтересованные пользователи могут легко найти необходимую информацию среди 30 тысяч номеров «Вечёрки» с помощью текстовых запросов.
Чтобы реализовать поиск по газетным архивам, была использована технология распознавания текста Яндекса. Её нейросеть специальным образом адаптировали для работы с вёрсткой газетных страниц. Она может распознавать текст на огромных полосах, часто набранных мелким шрифтом на специфической бумаге низкой плотности, со множеством колонок, врезок и рекламных блоков. На каждой из 170 тысяч страниц архива «Вечерней Москвы» нейросеть выделила десятки, а иногда и сотни блоков: заголовки, абзацы, врезки, а затем превратила их содержимое в текст.
На сайте проекта пользователи могут принять участие в викторине: увидеть статьи «Вечерней Москвы» и попробовать угадать, в каком году они были опубликованы.
Проект реализован в рамках партнёрства Национальной электронной библиотеки, Яндекса и «Вечерней Москвы». Ранее оцифрованный архив «Вечерней Москвы» за 100 лет поступил в НЭБ из фондов Российской государственной библиотеки.